內容分析法(content analysis)是社會科學與傳播學常用的研究方法,也是質性研究(qualitative research)的主要方法之一(紮根理論,grounded theory)。而隨著生成式 AI 的普及,人機互動(HCI)、傳播學、教育學及資訊科學領域的學者,也開始將內容分析法應用於「人類與大語言模型(LLM)的對話」。
以「人類與大語言模型的對話」作為研究的客體,我們可以粗略的把研究分為「聚焦在人類的輸入」、「聚焦在機器的輸出」,和「聚焦在互動的歷程」三的角度:
人類的輸入:使用者意圖與行為分類(User Intent Taxonomy)
Zhao 等人在 2024 年發表於 ICLR 2024 (International Conference on Learning Representations) 的 "WildChat: 1M ChatGPT Interaction Logs in the Wild",收集了如 ShareGPT 或 WildChat 等公開的對話數據集,對使用者的 Prompt 進行內容分析。他們將對話編碼後,分類為「創意寫作」、「程式碼除錯」、「資訊搜尋」、「角色扮演」等類別,並附上使用者人口學資料。
機器的輸出:人類專家與 AI 在提供諮詢時的內容差異
Ayers 等人2023年發表在 JAMA International Medicine 的 "Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum",彙整了大量病人對醫師提出的問題,同時丟給 ChatGPT 與人類醫師,然後對回應進行分析比較。研究者們邀請第三方醫療專家來進行盲測,對回答的「品質」與「同理心(Empathy)」進行評分,結果發現 LLM 在同理心表達的詞彙豐富度上超越部分人類醫師。
人與機器的互動:教育與協作過程(Co-writing)的分析
對於整個對話流程的分析,則是較常見於人機互動(HCI)和教育領域的研究。例如如何透過人機協作來進行設計(Chiou et al., 2023)或寫作(Dang et al., 2023; Reza et al., 2025),就是相當熱門的研究主題,研究者會設計各種指標,來分析使用者究竟是在「協作」或是「依賴」人工智慧。而教育領域則更注重利用前述的研究結果,來進行規範和建議。
為內容分析帶來新的工具
這些研究提供了很多新的發現,也開啟了新的應用。例如,傳統在訓練內容分析法時,常常缺乏可供分析的文本,而生成式AI可以依照指定的人物誌(persona)生成特定情境下的文本,恰恰彌補了合規資料來源的缺口。又例如,傳統以人力進行內容分析,經常在當「文本量」與信度(reliability)和效度(validity)之間難以兼顧,但若以語言模型來協助標注資料,則可以大幅改善這個情況。當然,這些方法目前都還在發展當中,尚未取得普遍的共識。
分析AI生成內容的潛在風險:不可重複性(Non-determinism)與擬人論的陷阱(Anthropomorphism Bias)
同樣的輸入 Prompt,在不同時間、不同溫度參數(Temperature)下,每次都可能產出不同的內容。傳統科學要求實驗可重複(reproducibility and replicability),但大語言模型作為一種統計模型,不可重複性(Non-determinism)是它天生的罩門。而這個特性,使得「對 AI 特定的某一次回應進行深入的分析與詮釋」變得毫無意義。
Bender 等人更是在他們 2021 年的論文:"On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" 當中,提出了擬人論(anthropomorphism)的警告:作者提醒研究者們,LLM 產出的內容本質上是機率分佈(Stochastic Parrots),因此在進行內容分析時,必須小心不要將其「像人一樣流暢的語言」誤解為「具有真實的認知意圖」。實作上,編碼簿(Codebook)的定義必須非常操作型,避免使用像是「AI 感到困惑」這類描述,而應改為「AI 輸出了矛盾的資訊」。
而這些多年前的提醒,恰好就是現在很多以單一文本案例來舉證「AI 試圖欺騙人類」、「AI 隱藏他的真實意圖」... 等等論述所掉入的陷阱。
對 AI 生成的文本進行內容分析,確實有其合理性,而且也是目前理解人機協作模式最重要的方法之一。然而,研究者最好能清楚的定義編碼架構,並且在解釋數據時,注意不要將人類的心理狀態過度投射到模型生成的文本上。
沒有留言:
張貼留言